- Nieuw onderzoek suggereert dat het AI-model achter de bot ChatGPT dommer wordt.
- Wetenschappers van de universiteiten van Stanford en UC Berkeley hebben ontdekt dat het nieuwste model van de bot, GPT-4, de laatste tijd minder goed presteert.
- Maar waarom dat zo is, blijft tot nu toe een raadsel.
- Lees ook: ChatGPT lijkt opeens ‘sneller en dommer’ in plaats van ’traag en precies’, volgens IT-experts – dat kan met een nieuwe, goedkopere opzet te maken hebben
Onder IT-experts groeit al een tijdje het gevoel dat het AI-model achter ChatGPT steeds ‘dommer’ wordt. En er is nu hard bewijs dat suggereert dat het paradepaardje van artificial intelligence-startup OpenAI echt wat van zijn glans aan het verliezen is.
In een nieuw onderzoek door Stanford University en UC Berkeley, waarin wordt onderzocht hoe de prestaties van ChatGPT in de loop der tijd zijnb veranderd, wordt vastgesteld dat de prestaties van de onderliggende GPT-3.5 en GPT-4 AI-modellen van de chatbot inderdaad “sterk variëren”.
Niet alleen variëren de prestaties, maar GPT-4, het meer geavanceerde “multimodale” model dat zowel afbeeldingen als tekst kan begrijpen, lijkt een stuk slechter te presteren in de taken waarop beide modellen zijn getest.
De taken die de onderzoekers de bot voorlegden zijn gevarieerd genoeg om er zeker van te zijn dat het model echt een eerlijke beoordeling van zijn capaciteiten kreeg. Ze testten de ChatGPT- modellen onder andere op het oplossen van wiskundige problemen, antwoord geven op gevoelige vragen, het genereren van softwarecode en visueel kunnen denken.
GPT-4 presteerde ondermaats in het onderzoek. In maart van dit jaar wist de bot nog met 97,6 procent nauwkeurigheid priemgetallen te identificeren, maar in juni daalde die nauwkeurigheid tot een schokkende 2,4 procent. Ook maakte het model in juni "meer opmaakfouten bij het genereren van softwarecode" dan eerder dit jaar en was het "minder bereid om gevoelige vragen te beantwoorden".
Niemand weet waarom GPT-4 aan het veranderen is
Wat het onderzoek niet lijkt aan te tonen is waarom de prestaties zo achteruit zijn gegaan.
"Het artikel gaat niet in op de vraag waarom de achteruitgang in capaciteiten plaatsvindt. We weten niet eens of OpenAI weet dat dit gebeurt", twitterde hoogleraar Ethan Mollick van de Universiteit van Pennsylvania.
Als OpenAI het nog niet heeft opgemerkt, dan hebben velen in de AI-gemeenschap dat zeker wel. AI-expert Peter Yang van Roblox merkte in mei op dat de antwoorden van GPT-4 sneller worden gegenereerd dan voorheen, "maar dat de kwaliteit slechter lijkt te zijn". "Misschien probeert OpenAI kosten te besparen", tweette hij.
Op het forum voor programmeurs van OpenAI is ondertussen een discussie gaande over een afname van de kwaliteit van antwoorden. Vooral omdat het model van GPT-4 ten grondslag ligt aan een nog geavanceerdere versie van ChatGPT, waar alleen betalende abonnees toegang toe hebben. Een kwaliteitsafname in de antwoorden van de bot is daarom een probleem voor OpenAI.
Experts in de AI-gemeenschap wijten de verslechterende kwaliteit van GPT-4 aan een "radicaal herontwerp" van het model. Maar OpenAI spreekt dit tegen en Peter Welinder van OpenAI twitterde vorige week: "Nee, we hebben GPT-4 niet dommer gemaakt. Integendeel: we maken elke nieuwe versie slimmer dan de vorige."
Matei Zaharia, hoogleraar computerwetenschappen aan UC Berkeley en een van de co-auteurs van het onderzoeksartikel, tweette dat het “lastig lijkt om de kwaliteit te waarborgen" van antwoorden van AI-modellen.
"Ik denk dat het de vraag is hoe goed programmeurs van AI-modellen zelf dit soort veranderingen kunnen detecteren of kunnen voorkomen dat dit gebeurt als modellen voor nieuwe vaardigheden worden getraind", twitterde hij.
Sommige experts, zoals Arvind Narayanan, hoogleraar computerwetenschappen aan Princeton, vinden dat er te snel een oordeel wordt geveld over de antwoorden van ChatGPT en ze niet goed in perspectief worden geplaatst.
In een Twitter draadje merkt hij op dat de achteruitgang van de antwoorden van het model die in het artikel worden genoemd, "enigszins twijfelachtig" is vanwege de taken die GPT-4 moest uitvoeren en de gebruikte evaluatiemethode. Bij de test om softwarecode te genereren voegde GPT-4 bijvoorbeeld "niet-code tekst toe aan zijn uitvoer, maar de auteurs evalueren daar niet de correctheid van."
Dat gezegd hebbende, is het moeilijk om de kwaliteitsvragen rond GPT-4 te negeren als een hele gemeenschap van AI-enthousiastelingen het erover heeft.